×\01Ｌ 문 서 에 서 의 단 계 화 된 스키마 추출 
김 성 림 ' ㆍ 윤 용 익 '" 


요 약 


인 터 넷 상에서 데 이 터 를 표 현 하고 교 환 하 는 새로운 표 준 으로 등 장 하 는 %%0Ｌ 문 서 는 정해진 스 키 마 를 가지 
고 있지 않다. 01 문 서 를 기 존 의 관계형 데 이 터 베 이 스 나 객체 지향 데이터베이스 질 의 어 에 바로 적 용 하 기 에 
는 부 적 합 하여 이러한 ※0Ｌ 문 서 에 대해 스 키 마 를 추 출 하는 방 법 과 질 의 어 에 대한 연 구 가 활발히 진 행 되 고 
있다. 스 키 마 가 있다면 8841 문 서 에 대해 사용자 질 의 를 효 율 적 으로 처 리 할 수 있다. 그리고 수많은 데 이 터 에 
서 사 용 자 의 질 의 에 대한 결 과 는 너무 많 거나 적을 수가 있다. 사 용 자 에게 알맞은 질의 결 과 를 보여주는 
것은 중 요 하 다. 본 논 문 에서는 ※*Ｌ 문 서 의 엘리먼트 정 보 를 바 탕 으로 스 키 마 를 추 출 하고, 그 발생 빈도 수 에 
따라 여러 단 계 의 스 키 마 를 추 출 하 는 방 법 을 제 시 하 고, 이를 구 현 하여 그 결 과 를 분 석 해 본 다. 


6 Ｌ67611260 5006108 토 ×1 ㅠ 80000 104 ×)40[. 1000040061018 


응 0409「117 171 800 00016 000. 


^8561140 ㅜ 


0. 40007006015, \4011 6 0600020108 106\ 8[800310 107 6×10[695108@ 800 6×011808@108 0818 10 1416 10168100[, 
0070" 16276 06601060 5006002. 15 00 830604866 10 0176005 80217 41. 000047006065 (0 1016 6×16008 50 
07 00. 69680 0 ㅁ 10\ 10 6× ㅁ 80 51607 107 1Ｌ 000041006104【[5 800 04617 13084886 15 80108 00 80117615. 
007 05666 04677, 116 1694166 00410 166 600 20805 07 100 1686. 타 18 17000 다 80 10 8176 016 16606 80604866 
16941(9. 1116 20806 50406860868 1416 \89 10 6×0 ㅁ 80 70807 16106112060 501160208 80007010@ 10 1416 176046007 이 
이 연 060【 0000176066 포 1. 000010604[5. 16 5 아 6708 080 06 16000660 0 6×[60060 10 007 ㅠ 650000 10 006 


19668 04677 0066 11635416017. 


69 00008: 0. 0060100606 5016028, 176046005 


1. 서 론 


※×0.(6×[60060 ]13404010 Ｌ ㄴ 8084886) 은 인 터 넷 상 
에서 데 이 터 를 표 현 하 고 교 환 하 는 새로운 표 준 으로 
등 장 하 고 있 다 [451. 8710Ｌ. 과 마찬가지로 24Ｌ 은 
8000Ｌ 의 부 분 집 합 이지만 27170Ｌ 태 그 가 데이터 아 
이 템 표 현 에 중 점 을 둔 것이라면, 8841 태 그 는 데이 
터 자 체 를 기 술 한다. 따라서 %%0Ｌ. 은 자기 서 술 적인 
(961【-065000178) 특 징 을 바 탕 으로 ※&4Ｌ 문 서 를 여 
러 형 태 로 보여줄 수 있고, 내 용 을 기 반 으로 데이터 
를 필 터 링 하거나 어 플 리 케 이 션 의 목 적 에 맞게 재구 
" 정회원, 동 덕 여 자 대 학교 정 보 학 부 컴 퓨 터 학 전공 강의 


전 임 강사 
" 숙 명 여 자 대 학교 정 보 과 학부 멀 터 미 디 어 학과 교수 


성 이 가 능 하 다. 

×0Ｌ 문 서 는 데이터 구 조 를 나타내는 중 첩 된 태 
그 엘 리 먼 트 의 집 합 으 로 구 성 되고, 기 존 의 데 이 터 베 
이 스 에서처럼 정해진 스 키 마 를 갖고 있지 않지만 문 
서 마다 어떤 구 조 ((220041060『 706 12068010400 : 12110) 
를 가지고 있다고 볼 수 있다. 이렇게 %&84Ｌ. 데이터 
모 델 은 구조상 기 존 의 데 이 터 베 이 스 와 많은 차이점 
이 있어 기 존 의 관계형 데 이 터 베 이 스 나 객체 지향 
데이터베이스 질 의 어 를 바로 적 용 하 기 가 힘들다. 따 
라서 이러한 ※\01. 문 서 들 에 대해 스 키 마 를 추 출 하 는 
방 법 과 질 의 어 에 대한 연 구 가 활발히 진 행 되고 있다 
[1.2.10.12.13,.15]. 

본 논 문 에서는 ※84Ｌ 문 서 의 엘리먼트 정 보 와 그 
발생 빈 도 수 를 바 탕 으로 스 키 마 를 추 출 하고, 사용자 
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질 의 에 대해 엘 리 먼 트 의 발생 빈도 수 를 조 정 함 으로 
써 여러 단 계 의 스 키 마 를 추 출 하는 방 법 을 계 시 하고 
자 한다. 이러한 스키마 추출 방 법 은 사용자 질 의 에 
대해 질의 수행 결 과 가 너무 적 거나 많을 때 사용자 
질 의 에 적 용 되는 스 키 마 를 달 리 함 으로써 질의 범위 
를 축소 혹은 확장 가 능 하 도 록 하기 때문에 사 용 자 의 
요 구 를 효 율 적 으로 반 영 할 수 있게 한다. 

본 논 문 의 구 성 은 다 음 과 같다. 2 장 에서는 스키마 
추 출 에 대한 관련 연 구 를 살 펴 보 고, 3 장 에서는 본 논 
문의 배 경 이 되는 이 론 과 몇 가지 정 의 를 서 술 한다. 
4 장 에서는 본 논 문 에서 제 안 하고자 하는 스 키 마 를 
추 출 하는 알 고 리 즘 과 예 제 를 보이고, 5 장 에서 스키 
마 추 출 을 위해 제안한 방 법 을 실 험 한 내 용 을 설 명 하 
고, 6 장 에서 결 론 을 맺는다. 


2. 관련 연구 


트리 표 현 식 들의 발생 빈 도 에 따라 최 대 의 트리 
표 현 식 으로 공 통 적 인 스 키 마 를 추 출 하는 방 법 이 있 
다 [1617]. 트리 표 현 식 ((6 : ㅁ 66 6×07655100) 에서 7 
의 지 지 도 (64000: 44 페 1507) 는 도큐먼트 0 보다 
표 현 식 이 약한 76 를 갖는 도 큐 먼 트 의 개 수 이다. 411- 
지 [50" 보 다 큰 지 지 도 를 가 지 면 서 가장 많은 정 보 를 
포 함 하는 트리 표 현 식 이 추 출 되는 스 키 마 가 된다. 자 
주 발 생 되는 비슷한 질 의 에 대해서 트리 표 현 식 을 
만들고, 이를 바 탕 으로 스 키 마 를 추 출 함 으로써 유사 
한 질 의 에 대해 효 율 적 으로 실행할 수 있다는 장 점 이 
있지만 문서 전 체 에 대한 스 키 마 를 찾기 힘 들 다 는 
제 약 이 있다. 

발생 빈도 패 턴 올 찾는 방 법 은 트랜잭션 데 이 터 베 
이스, 시계열 데 이 터 베 이 스 등 많은 데이터베이스 분 
야 에 서 연 구 되어 왔다. 여러 방법 중에서 발생 빈도 
패턴 트 리 (7/'-/706 : #7604604[ 『734670 1 ㅜ 660) 를 구 
축 하 여 최대 패 턴 을 구하는 방 법 이 제 시 되 었 다 [8]. 
#2- ㅠ 66 에 서는 발생 빈도 패 턴 에 대한 정 보 를 저장 
하고, 이를 이 용 하 여 조건 %2-1766 를 형 성 함으로써 
빈도 패 턴 을 찾 아 내 는 데 보다 효 율 성 을 증 가 시켰다. 
사용자 정의 발생 빈도 수 를 바 탕 으로 스 키 마 가 다양 
하게 추 출 될 수 있다는 장 점 은 있지만 전체 스 키 마 보 
다는 특정 패 턴 에 대한 스 키 마 가 추 출 되는 제 약 과 
특정 패 턴 과 발생 빈도 수 에 대한 사용자 정의 값 에 
대해 매번 스키마 추출 단 계 를 반 복 해 야 한다는 제약 


점이 있다. 

Ｌ076 는 스 탠 포 드 대 학 에서 개 발 한 ※8/1Ｌ 을 위한 데 
이 터 베이스 관리 시 스 템 이 다 [3.61. 1076 는 %"Ｌ 데이 
터 의 구 조 를 파 악 하 기 위해 1368(07106 를 제 공 한다. 
10[8(34106 는 ×)04Ｌ 데 이 터 베 이 스 에 대해 정 확 하 고, 
동 적 으로 정 리 된 구 조 를 표 현 해 줌으로써 데 이 터 베 
이스 스 키 마 나 211 역 할 을 수 행 하게 된다. 사용자 
는 108130004106 를 통해 데 이 터 베 이 스 의 전체적인 구 
조 를 파 악 하여 질 의 를 만들 수 있게 된다. 10262- 
00406 는 모든 문 서 에 대한 전체적인 스 키 마 를 파악 
할 수 있다는 장 점 이 있지만 모든 문 서 에 있는 데이 
터 가 표 현 됨으로써 생 성 되는 스 키 마 의 범 위 가 최대 
가 되고 따라서 질의 수 행 을 위한 검색 범 위 가 넓어 
질 수 있다는 제 약 점 이 있다. 


3. 모델링 


본 장 에서는 본 논 문 에서 제 안 하는 스키마 추출 
방 법 에 필요한 기본 개 념 을 살 펴 보 고, 몇 가지 정의 
를 설 명 한 다. 


3.1 ㄷ 6096 ㄴ 806160 (31807 


×0Ｌ 문 서 를 반 구 조적 데 이 터 (66001-6040604760 
08(3) 처 럼 방 향 성 있 는 6466-124606160 8782 로 표현할 
수 있 다 [5,7]. 80866-1968160 @7301 에 서 엘 리 먼 트 는 
객 체 ( 노 드 ) 로 표 현 되 고, 각 객 체 는 객체 식별자 064 
(00160 10600867) 를 갖고 두 개의 객 체 - 단 순 객 체 와 
복합 객 체 - 로 구 분 된 다. 8%0066-18006160 81804 에 서는 
객 체 들 간에 간 선 이 존 재 하 고, 각 간 선 마다 엘리먼트 
이 름 으로 레 이 블 이 있고, 서브 엘 리 먼 트 를 표 현 하 는 
방 향 성 을 갖는다. 


3.2 스키마 추 출 을 위한 그래프 


스키마 추 출 을 위하여 본 논 문 에서는 다 음 과 같이 
두 개의 그 래 프 를 정 의 한 다. 


ㅇ 정의 1: 페이터 그래프 (72000 (70277 

※×0Ｌ 문 서 의 모든 데 이 터 가 표 현 되는 6086 18- 
66160 00760060 8「001 를 '8 이러 . 그 래 프 24060 (70007 
라고 정 의 한 다. 루트 노 드 로 부터 하위 노 드 로 방향성 
있는 간 선 이 만 들 어 지 고, 간 선 의 레 이 블 은 엘리먼트 
의 이 름 이 된다. 그리고 각 노 드 는 010 를 갖고, 노 드 는 


단순 객체 또는 복합 객 체 의 형 태 를 갖는다. 


ㅇ 정의 3: 스키마 그래프 (50700 (40070) 

데이터 그 래 프 에서 깊이 우선 탐색 기 법 을 바 탕 으 
로 모든 경 로 가 단 한번만 표 현 되는 그 래 프 를 ' 스 / 
마 . 그 래 프 ,90160770 < ㅠ @20"' 라 고 정 의 한 다 . Ｌ076 시 
스 템 [11] 의 20680406[7] 처 럼 스키마 그 래 프 에 서는 
모든 레이블 경 로 가 유 일 하 고 (600 ㅁ 0156), %84Ｌ 문서 
에 있는 모든 데 이 터 는 표 현 되어야 하 고 (2004 ㅁ 7805), 
각 노 드 의 구 성 이 어떻게 되 어 있 는 지 (60 ㅁ \6016006) 
알 수 있도록 한다. 


3.3 비 트 맵 인 덱 싱 을 이용한 레이블 경로 인덱싱 


비 트 맵 인 덱 싱 의 기본 개 념 은 튜 플 에 있는 애 트 리 
뷰 트 가 어떤 특별한 값 을 갖고 있느냐 없 느 냐 를 0 
혹은 1 의 비트로 표 현 하는 것 이 다 [914]. 본 논 문 에서 
는 아래와 같이 정의한 ※8Ｌ 문 서 에 서 의 레이블 경 
로 를 비 트 맵 인 덱 싱 하 여 보다 유 동 적 인 스키마 그래 
프 를 생 성 한 다 [18]. 


ㅇ 정의 3: 이끌 경로 (40060! 7200 

데이터 그래프 혹은 스키마 그 래 프 에서 한 노 드 에 
서 어떤 하위 노 드 로의 경 로 를 ' 레 이끌 경 로 (080! 
2200 라고 정 의 한 다. 그 래 프 에서 노 드 와 노 드 사이 
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에는 간 선 이 존 재 하고, 간 선 은 
이 블 이 존 재 한다. 그리고 루트 
지의 경 로 에서 나타나는 중간 
하여 표 현 한 다. 


4. 스키마 추출 


본 장 에서는 3 장 에서 설명한 기본 개 념 을 바 탕 으 
로 영 화 에 대한 정 보 를 표 현 하는 %141. 문 서를 예로 
들어 설 명 한 다. 


4.1 예제 ×)/Ｌ 문서 


웹 사이트 140://\\\.127000.0020// 에 있는 영화 정 
보 에 대한 내용 중에서 70025081058 에 서 100 위 까지 
의 멀티미디어 테 이 터 를 제외한 텍스트 데 이 터 를 바 
탕 으로 생 성 한 %84Ｌ 문 서 를 가 정 한 다 [19]. 생 성 한 
×/Ｌ 문 서 의 예 는 그림 1 과 같다. 


4.2 데이터 그 래 프 와 스키마 그래프 


그림 1 의 예제 ×41 문 서 를 데이터 그 래 프 로 표현 
하면 그림 2 와 같다. 3.2 에 서 정 의 한 바와 같이 그림 
2 의 데이터 그 래 프 는 예제 2001. 문 서 에 있는 모든 
엘 리 먼 트 가 표 현 되어 있다. 


| <000716> 

<1106>(610260 06 </0 ㅁ 1046> 
<5687>1941</57687> 

<01760607>017600 \61166</0176060 ㅠ > 

<\ 파 [66> 트 60087 ]. 11270406\62  </\0660> 


<@6016.>1278008</86016> 
<6851> 


<8\810>0508</8\810> 


</6886> 
<6881> 


</68686> 


</100 머 6> 


< 짜 감 란 >< 사 93006>()7500</79108106.> <18660048016>'\61166</1651008006></\666> 


<08106>0@760 ㅁ \6165</ ㅁ 8106.><17016>(10065 05660 806 </2016> 

<68668079>8686 \2008, (00810 힌 1 용 00660201857</0866801> 

<6004866>< ㅁ 81006> 따 2 트 371\000 </7 ㅁ 87006> <00004081100>0107060</0004081100></600466> 
<0 ㅁ 31006>10070017 (>000108076</ ㅁ 8006> < ㅠ 016>5468 ㅁ 0 스 16×20067 806 </1016> 


<600486>< ㅁ 861006.>1004870 (01109 (1) </1 ㅁ 8006> <000008000.>?</000008000 ㅁ ></600486> 


<130814886@>8081194</180848@6> <00406*>06&</0004065> <60107> ㅁ 21806 300 \)11116</0010 ㅠ > 
<69\0108.>8160</67\0705> <16695\0108>05108-\0008  </65\0005> 


그림 1. 영화 정 보 에 대한 예제 ×\/Ｌ 문 서 (01) 
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그림 2. ×\Ｌ 문서 (01) 에 대한 데이터 그래프 


그림 1 의 예제 ※4Ｌ 문 서 를 스키마 그 래 프 로 표현 
하면 그림 3 과 같다. 3.2 에 서 정 의 한 바와 같이 그림 
3 의 스키마 그 래 프 는 모든 레이블 경 로 가 단 한번씩 
만 표 현 된다. 


그림 3.×\/Ｌ 문 서 (01) 에 대한 스키마 그래프 


4.3 레이블 경로 비 트 맵 인 덱 싱 을 이용한 스키마 


추출 
4.3.1 레이블 경로 

스키마 그 래 프 에 대해 레이블 경 로 는 루트 노 드 부 
터 리프 노 드 까지 깊이 우선 탐색 기 법 을 바 탕 으로 
중 간 노 드 의 레 이 블 이 레이블 경 로 에 추 가 되는데 그 
방 법 은 알고리즘 4.1 과 같다. 레이블 경 로 는 리프 노 
드 개 수 만큼 구 해 지 고, 중 복 되는 레이블 경 로 는 존 
하지 않는다. 비 트 맵 인덱스 기 법 올 그럼 3 의 스키마 
그 래 프 에서 레이블 경 로 에 적 용 하면 각 ×=04Ｌ 문 서 에 
서 의 레이블 경 로 의 존 재 여 부 에 따라 1 혹은 0 의 값 
을 갖는다. 이는 알고리즘 4.2 에 기 술 되어 있다. 


4.3.2 레이블 경로 빈도 수 를 이용한 스키마 추출 
모든 3041 문 서 에 대한 비 트 맵 인 덱 스 에 대해 


1610\156-0# 연 산 을 수 행 하면 모든 레이블 경 로 가 포 
함 되는 스키마 그 래 프 가 생 성 되 고, 이 그 래 프 는 데이 
터 그 래 프 에서 생 성 되는 스키마 그 래 프 와 동 일 하다. 
이는 알고리즘 4.3 과 같다. 

모든 ※%0 문 서 에서 각 레이블 경 로 에 대해 
16916\0186-0Ｌ 연 산 을 수 행 하면 모든 레이블 경 로 가 표 
현 되는 광범위한 스키마 그 래 프 를 구할 수 있고, 
1610\166-4 ㅅ 841 연 산 을 수 행 하 면 모든 ※80Ｌ 문 서 에 서 
공 통 적 으로 존 재 하 는 레이블 경 로 로 만 구성된 스키 
마 그 래 프 가 생 성 되어 질의 범 위 를 축 소 할 수 있다. 
※×)0[Ｌ 문 서 의 각 레이블 경 로 의 발생 빈도 수 를 조절 
하여 스키마 그 래 프 를 생 성 함 으로써 그 질의 범 위 를 
유 동 적 으로 할 수 있다. 여러 단 계 의 스 키 마 를 추출 
하기 위해 레이블 경 로 의 발생 빈도 수 를 알고리즘 
4.4 에 의해 계 산 한다. 


알고리즘 4.1. 레이블 경로 구하기 
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알고리즘 4.2 레이블 경로 인 덱 성 
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알고리즘 4.3 레이블 경 로 에 대한 61\156-0 연산 


// 2 : 레이블 경로, 0: ×%Ｌ 문서 
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계 산 된 레이블 경로 발생 빈도 수 에 사용자 정의 임 
계 치를 적 용 하 면 임 계 치 이상인 레이블 경 로 로만 구 
성 되는 스키마 그 래 프 를 구할 수 있다. 그 방 법 은 알 
고 리 즘 4.5 와 같다. 


알고리즘 4.4 레이블 경로 빈도수 계산 
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알고리즘 4.5 임 계 치 에 따른 레이블 경로 비 트 맵 
떠 
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5. 실 험 


5.1 실험 환경 


본 논 문 에서 제 시 한 레이블 경 로 의 발생 빈도 수 
에 따른 스키마 추출 방 법 의 실험 환 경 은 다 음 과 같 
다. 운영 체 제 는 \1000\582000 이 고, 데 이 터 베 이 스 는 
() ㅠ 80189! 를 사 용 하였다. 구현 언 어 는 ]2& 1.3.1 과 
18 를 사 용 하 였고, 오 라 클 과 의 연 동 을 위하여 ()/2016 
1086 000 00167 를 사 용 하였다. 웹 서 버 는 156 5.0, 
]87 엔 진 으 로는 76910 2.0.1 을 사 용 하고, ×※) 파서 
로는 (78016 ㅁ 2875@ (버전 2.0.1.0) 를 사 용 하였다. 


5.2 실험 모델 


본 논 문 에 서 사 용 된 ※"Ｌ 문 서 는 영 화 에 관한 정 
보가 있는 100://\\\.10400.007 를 참 조 하였다 
[19]. 00250 81005 중에서 100 위 까 지 의 데 이 터 를 멀 
티 미 디 어 데 이 터 를 제외한 텍스트 데 이 터 를 중 심 으 
로 ×※×/Ｌ 문 서 를 생 성 하 여 실 험 하였다. 
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5.3 실험 
5.3.1 데이터 그래프 생성 결과 


그럼 4 는 입력 %8041. 문 서 들 에 대해 파싱 작 업 을 
하고 생 성 된 데이터 그 래 프 가 데 이 터 베 이 스 에 저장 
된 결 과 의 일 부 이다. 각 ※&0Ｌ 문 서 마 다 00030 가 
부 여 되고, 루트 노 드 부터 리프 노 드 까지 레이블 경로 
가 생 성 되고, 이 레이블 경 로 에 대해 리프 노 드 의 데 
이 터 가 저 장 되 고 유일한 10 를 갖는다. 


5.3.2 스키마 그래프 생성 결과 


레이블 경 로 가 유 일 하게 표 현 될 수 있도록 스키마 
그 래 프 를 생 성 한다. 그림 5 는 데 이 터 베 이 스 에 저장 
된 스키마 그 래 프 의 결 과 이다. 
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그림 5. 데 이 터 베 이 스 에 저장 


된 스키마 그래프 
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5.3.3 레이블 경로 발생 빈도수 계산 결과 
스키마 그 래 프 를 바 탕 으로 데이터 그 래 프 에 저장 
된 각 문 서 의 레이블 경 로 를 적 용 하 여 레이블 경 로 가 
존 재 하 면 1, 존 재 하지 않으면 0 으 로 표 현 하 도록 하였 
다. 그림 6 은 스키마 그 래 프 와 데이터 그 래 프 를 이용 
하여 각 ※8/1Ｌ 문 서 를 비트 벡 터 로 표현한 결 과 이 다. 


그림 6. 레이블 경 로 의 비 트 맵 인덱싱 


그럼 7 은 레이블 경 로 의 총 발생 빈도 수 를 계 산 한 
것이다. 그림 7 의 결 과 를 보면 636( ㄴ 178106, 088[_1016, 
86016, 006, \1 ㅁ [에 대한 레이블 경 로 가 100 개 로 
실 험 한 모든 ※0Ｌ 문 서 에 나 타 난 다 는 것을 알 수 있 
고, 4 ㅠ 60[0+ 의 레이블 경 로 는 1176[4101706 과 1.46[487076 
으로 구 별 되 어 표 현 되 고, 49 개 의 최소 발생 빈 도 수 임 
을 알 수 있다. 


 1 아 기나: 2 태 바에 이지 0 노 


그림 7. 레이블 경로 발생 빈도수 


5.4 레이블 경 로 의 발생 빈도 수 에 따라 생 성 되는 
스키마 


레이블 경로 발생 빈도 수 에 대한 정 보 를 파악한 
후 임 의 의 임 계 치를 부 여 하여 질의 처리 전에 그 잘 
의 범 위 를 축소 혹은 확대 할 수 있다. 레이블 경로 
발생 빈 도 수 에 대한 임 계 치는 0.0 에 서 1.0 사 이 의 값 
을 입 력 받 도록 하였다. 즉 , 총 %84Ｌ 문 서 의 개 수 와 
레이블 경로 발생 빈도 수 를 0.0 과 1.0 사이로 정규화 
시켜 적 용 시켰다. 임의로 임 계 치 를 0.5 와 0.8 로 했을 
때 추 출 되는 스 키 마 (레이블 경 로 ) 와 적 용 되는 %41Ｌ 
문 서 의 번 호 와 개 수 가 그림 8, 9 와 같은 결 과 를 보여 
준다. 


5.5 실험 결과 분석 

임 계 치 가 0.5 이상인 경 우 는 총 ※84Ｌ 문서 100 개 
중에서 발생 빈 도 수 가 50 개 이상인 레이블 경 로 만을 
추 출 하여 스 키 마 를 생 성 하 게 된다. 임 계 치가 08 이 
상인 경 우 는 총 881 문서 100 개 중에서 발생 빈도수 
가 80 개 이상인 레이블 경 로 만 을 추 출 하여 스 키 마 를 
생 성 한다. 임 계 치가 0.5 인 경 우 와 0.8 인 경 우 에 추출 

는 스 키 마 의 형 태 를 비 교 해 보면 0.8 인 경 우 에 추출 
되는 스 키 마 에 대해서는 시나리오 작 가 의 정 보 (\1 ㅁ [6 


그림 9. 임 계 치 >^= 0.8 


를 알 수 있는 질 의 문 을 수 행 할 수 없지만 임 계 치가 
0.5 인 경 우 에 추 출 되 는 스 키 마 에 대해서는 질 의 문 을 
수 행 할 수 있다는 것을 알 수 있다. 

임 계 치가 05 인 경 우 는 추 출 되는 스 키 마 는 임 계 치 
가 0.8 인 경 우 보 다 많은 레이블 경 로 를 포 함 하지만 
스 키 마 에 나타나는 모든 레이블 정 보 를 포 함 하는 
230. 문 서 의 개 수 는 9 개 로써 전체 문 서 의 10% 도 안 
되는 범 위 임을 알 수 있다. 하지만 임 계 치가 0.8 인 
경 우 는 추 출 되는 스 키 마 의 범 위 는 0.5 인 경 우 보다는 
좁 지만 스 키 마 에 나타나는 모든 레이블 정 보 를 포함 
하는 "01 문 서 의 개 수 는 86 개 로써 전체 문 서 의 
869% 임 을 알 수 있다. 따라서 사용자 질 의 가 임 계 치 
0.5 인 경 우 에 생 성 되는 스 키 마 에 적용될 수 있다면 질 
의가 처 리 되 기 전에 38041 문 서 의 검색 범 위 를 미리 
줄일 수 있을 것이다. 따라서 본 실 험 을 통해 사용자 
의 질 의 에 대해 각각 다른 스 키 마 에 적 용 을 시키면 
질의 수 행 에 대해 문 서 의 범 위 도 유 동 적 일 수 있 음 을 
알 수 있다, 


6. 결 론 


1/0Ｌ 이 인 터 넷 상 에서 데 이 터 를 표 현 하고 교 환 하 
는 새로운 표 준 으 로 등 장 하 고 있다. %8/Ｌ 은 미리 정 
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의 된 스 키 마 가 없고, 문서 자 체 에 데 이 터 와 데이터 
구 조 를 갖고 있기 때문에 기 존 의 관계형 데 이 터 베 이 
스나 객체 지향 데 이 터 베 이 스 에서 사 용 되 는 60[ 이 
나 00[ 을 바로 적 용 하 기 가 어렵다. 따라서 이러한 
204. 에 대해 새로운 질 의 어 와 질의 처 리 를 위한 스 
키 마 추 출 에 대한 많은 연 구 가 이 루 어 지 고 있다. 

본 논 문 에서는 20401 문 서 에 대해 레이블 경 로 의 
발생 빈 도 수 에 따른 스키마 추출 방 법 을 제 안 하였다. 
스키마 추출 방 법 은 일단 같은 271 를 갖는 %141. 
문 서 들 에 대해 스키마 그 래 프 를 생 성 하여 3141 문서 
에 있는 모든 엘 리 먼 트 의 정 보 가 모두 표 현 되면서 
단 한번만 표 현 될 수 있도록 한다. 그리고 스키마 그 
래 프 를 바 탕 으로 입력 ×141 문 서 의 레이블 경로 존 
재 여 부 를 비트 벡 터 로 표 현 하 고, 40Ｌ 문 서 에 서 레 
이블 경 로 의 발생 빈도 수 를 계 산 하였다. 그리고 어 
떤 임 계 치 에 따라 여러 단 계 의 스키마 추 출 을 가 능 하 
게 함으로써 사용자 질 의 에 대해 보다 효 율 적 으로 
처 리 할 수 있도록 하였다. 

본 논 문 에서 제 안 하는 방 법 은 %141 문 서 에 나타 
나는 레이블 경 로 의 발생 빈 도 수 에 따라 여러 단 계 의 
스키마 추 출 을 가 능 하 게 함으로써 사용자 질 의 에 대 
해 보다 유 동 적 으로 적 용 시킬 수 있 음 을 알 수 있다. 
사용자 질 의 에 대해 너무 적은 혹은 너무 탑 은 질의 
결 과 가 나 왔 다 면 임 계 치를 두어 그 질의 범 위 를 축소 
혹은 확 장 하여 사용자 질 의 에 보다 적합한 결 과 를 보 
여 줄 수 있다. | 

향후 연 구 과 제 로 는 메타 데 이 터 를 이용한 스키마 
추 출 방 법 을 고 려 하여 데 이 터 의 형 태 뿐 만 아니라 의 
미 적 으 로 도 분 석 이 가 능 하 게 함으로써 보다 효율적 
인 스 키 마 를 추 출 하는 방 법 에 대한 연 구 가 필 요 하다. 
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